2024-10-052024-10-05 随手记 5 分钟读完 (大约808个字) 0次访问

Logistic Regression

逻辑回归，能融合多种特征。

$y=f(W^x+b), y \in \{0, 1\}, f$ 是 link function
线性分类

硬分类 :<-> 直接输出输出对应的分类 $y \in \{0, 1\}$
- 线性判别分析[[Fisher]]
- [[感知机]]
软分类 :<-> 产生不同类别的概率 $y \in [0, 1]$
- 概率生成式(连续)，类别先验 [[Gaussian Discriminant Analysis]] GDA [[Naive Bayes Classifier]]
  - $P(y=0|x), P(y=1|x)$ 的大小关系
- 概率判别式(离散) Logisitic Regression
  - 直接对 $$P(Y|X)$$ 建模

逻辑回归

$P(Y|X, \theta)=p_1^yp_0^{1-y}$$ 服从[\[\[Bernoulli Distribution\]\]](/post/logseq/Bernoulli%20Distribution.html) + 求 MLE 转化成 Cross Entropy$
取 $$z=\ln \frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2}$$
- 激活函数 [[sigmoid]] $f(z)=\frac{1}{1+exp(-z)} \in (0, 1.0)$
  - 阶跃函数不连续，sigmoid函数光滑，处处可导
  - 数据取值范围从正无穷压缩到 0-1
- 两类联合概率比值的对数
- odds 几率代表事件发生和不发生的比值 $$\frac{p}{1-p}$$
- 对数几率的线性回归
$P(y=0|x)=\frac{1}{1+\exp(-w^Tx)}$
$P(y=1|x)=\frac{\exp(-w^Tx)}{1+\exp(-w^Tx)}$
MLE $$w=\mathop{argmax} \sum(y_i \log p_1 + (1-y_i)\log p_0)=\mathop{argmax} \sum(y_i \log f(x,w) + (1-y_i)\log (1-f(x,w))$$
- 等价于 Cross Entropy
多分类
- softmax regression
- 参数冗余
多标签：每个标签设计一个分类器

在推荐系统中，LR 当成是一个分类问题处理，通过预测正样本的概率对物品进行排序。将推荐问题转化为预估问题。另外也能使用 [[Pair Wise]]

优点

[[面试]]

LR归一化问题
- 什么情况可以不归一化 :-> 最小二乘法
- 什么情况必须归一化 :-> 梯度下降算法
- [[Wide&Deep]]
提到LR损失函数要能知道交叉熵，为什么是它，以它为损失函数在优化的是一个什么东西，知道它和KL散度以及相对熵的关系
提到LR的求解方法，比如SGD，知道SGD和BGD的区别，知道不同的GD方法有什么区别和联系，二阶优化算法知道什么，对比offline learning和online learning的区别
提到调参，知道模型不同超参数的含义，以及给定一个特定情况，大概要调整哪些参数，怎么调整
提到LR的正则，知道l1l2的原理，几何解释和概率解释
LR的分布式实现逻辑是怎么样的，数据并行和模型并行的区别，P-S架构大概是怎么一回事
LR作为一个线性模型，如何拟合非线性情况？
- 特征侧比如离散化，交叉组合，模型比如引入kernel，又可以推广到FM等model上
LR 如何解决低维不可分
- 通过核函数将特征从低维空间转换到高维空间，高维空间中线性可分的几率会变高

Logistic Regression

Ryen Xiang

2024-10-05

2024-10-05

相关文章